iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 6
1
自我挑戰組

資訊爆炸時代學資訊檢索與擷取系列 第 7

Day07:語言模型(Language Models)

  • 分享至 

  • xImage
  •  

語言模型(Language Models)在1998年才被應用到IR上。Language Models主要目的在於判斷長度T的文字序列在自然語言中出現的可能性。其中,Language Models可以表示成給定一段文字序列預測下一個文字出現的機率。
https://ithelp.ithome.com.tw/upload/images/20200908/20110042BAmlVUYD5w.jpg
其中,Language Models最有名的是N-gram語言模型,可以分成:

  • Unigram
    每個字的出現都和前個字無關,表示如下:
    https://ithelp.ithome.com.tw/upload/images/20200908/20110042fBjgU1dUlC.jpg
  • Bigram
    https://ithelp.ithome.com.tw/upload/images/20200908/20110042bbmxu7a3Fm.jpg

語言模型(Language Models)應用於IR上主要有兩種方法:

  1. KL-Divergence Measure
  2. Query-Likelihood Measure

今天我先介紹KL-Divergence Measure

KL-Divergence Measure

KL-Divergence Measure主要拿來計算query LM 和 document LM之間的距離
https://ithelp.ithome.com.tw/upload/images/20200908/201100426jAQCtWJDm.jpg
KL-Divergence Measure可以簡化為QLM
https://ithelp.ithome.com.tw/upload/images/20200908/20110042X9l4QWnm6l.jpg


上一篇
Day06:最佳匹配模型(Best Match Model)
下一篇
Day08: Query Likelihood Measure
系列文
資訊爆炸時代學資訊檢索與擷取8
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言